Анализ сообществ в социальной сети вконтакте с применением графов¶

Резюме¶

В этой статье мы будем анализировать участников группы вконтакте Avito.Life с применением теории графов. Для анализа взяты участники сообщества с открытыми профилями.

Структура¶

  • общие характеристики сообщества
  • распределение признаков
  • топ групп
  • выделение популярных участников
  • выделение подгрупп
    • распределение признаков
    • топ групп
  • Послесловие
    • Скрипт сбора данных
    • Что можно сделать еще

Общие характеристики сообщества¶

Представим сообщество вконтакте в виде точек и стрелочек между ними, где точка — это человек, а стрелочка — это подписка. Если два человека дружат, то это двусторонняя стрелочка.

Количество открытых профилей сообщества: 1587
Общее количество связей между участниками: 319
Среднее количество друзей внутри сообщества: 0.2010081915563957
Медианное количество друзей внутри сообщества: 0.0

Компоненты связности - это группы пользователей, которые связаны внутри, но не связаны между собой.

Распределение размеров компонент cсвязности:
количество таких компонент
Кол-во учатников внутри компоненты
1 1387
2 40
3 4
4 4
5 2
6 2
9 1
19 1
20 1
22 1

Видим, подавляющее большинство не дружат между собой, есть лишь несколько небольших подгрупп.

Распределение признаков¶

city - город
sex - пол
byear - год рождения
occupation - занятость
occupation_type - тип занятости
relation - отношения
alcohol - отношение к алкоголю 1(резко негативное)-5(резко положительное)
inspired_by - вдохновлен
langs - языки
life_main - главное в жизни
people_main - главное в людях
political - полит. взгляды
religion - религия
smoking - отношение к курению 1(резко негативное)-5(резко положительное)
followers_count - количество подписчиков
first_name - имя
last_name - фамилия
status - статус
main_group_likes - кол-во поставленных лайков в основной группе
got_likes_from_members - кол-во лайков, полученных от участников основной группы
got_likes - общее кол-во полученных лайков

  0%|                                                                                         | 0/2516 [00:00<…
DataPrep Report
DataPrep Report Overview
Variables ≡
city sex byear occupation occupation_type relation alcohol inspired_by langs life_main people_main political religion smoking followers_count is_org first_name last_name status main_group_likes got_likes_from_members got_likes
Interactions Correlations Missing Values

Overview

Dataset Statistics

Number of Variables 22
Number of Rows 1587
Missing Cells 14777
Missing Cells (%) 42.3%
Duplicate Rows 0
Duplicate Rows (%) 0.0%
Total Size in Memory 1.5 MB
Average Row Size in Memory 1006.7 B
Variable Types
  • Categorical: 17
  • Numerical: 5

Dataset Insights

city has 465 (29.3%) missing values Missing
byear has 840 (52.93%) missing values Missing
occupation has 643 (40.52%) missing values Missing
occupation_type has 643 (40.52%) missing values Missing
relation has 823 (51.86%) missing values Missing
alcohol has 1486 (93.64%) missing values Missing
inspired_by has 1479 (93.19%) missing values Missing
langs has 1132 (71.33%) missing values Missing
life_main has 1425 (89.79%) missing values Missing
people_main has 1416 (89.22%) missing values Missing
political has 1458 (91.87%) missing values Missing
religion has 1494 (94.14%) missing values Missing
smoking has 1423 (89.67%) missing values Missing
followers_count has 24 (1.51%) missing values Missing
status has 26 (1.64%) missing values Missing
followers_count is skewed Skewed
main_group_likes is skewed Skewed
got_likes_from_members is skewed Skewed
got_likes is skewed Skewed
city has a high cardinality: 244 distinct values High Cardinality
occupation has a high cardinality: 679 distinct values High Cardinality
inspired_by has a high cardinality: 105 distinct values High Cardinality
langs has a high cardinality: 52 distinct values High Cardinality
first_name has a high cardinality: 424 distinct values High Cardinality
last_name has a high cardinality: 1419 distinct values High Cardinality
status has a high cardinality: 656 distinct values High Cardinality
is_org has constant value "False" Constant
alcohol has constant length 3 Constant Length
smoking has constant length 3 Constant Length
is_org has constant length 5 Constant Length
main_group_likes has 1551 (97.73%) zeros Zeros
got_likes_from_members has 1172 (73.85%) zeros Zeros
got_likes has 548 (34.53%) zeros Zeros
  • 1
  • 2
  • 3
  • 4

Variables


city

categorical

Approximate Distinct Count 244
Approximate Unique (%) 21.8%
Missing 465
Missing (%) 29.3%
Memory Size 83338

Length

Mean 9.172
Standard Deviation 4.0419
Median 8
Minimum 3
Maximum 24

Sample

1st row Saint Petersburg
2nd row Saint Petersburg
3rd row Saint Petersburg
4th row Saint Petersburg
5th row Saint Petersburg

Letter

Count 10022
Lowercase Letter 8658
Space Separator 215
Uppercase Letter 1364
Dash Punctuation 47
Decimal Number 0

sex

categorical

Approximate Distinct Count 2
Approximate Unique (%) 0.1%
Missing 0
Missing (%) 0.0%
Memory Size 109276

Length

Mean 3.857
Standard Deviation 0.99
Median 3
Minimum 3
Maximum 5

Sample

1st row woman
2nd row woman
3rd row man
4th row man
5th row man

Letter

Count 6121
Lowercase Letter 6121
Space Separator 0
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0
  • The top 2 categories (man, woman) take over 50.0%

byear

numerical

Approximate Distinct Count 53
Approximate Unique (%) 7.1%
Missing 840
Missing (%) 52.9%
Infinite 0
Infinite (%) 0.0%
Memory Size 11952
Mean 1989.4645
Minimum 1953
Maximum 2009
Zeros 0
Zeros (%) 0.0%
Negatives 0
Negatives (%) 0.0%
  • byear is skewed left (γ1 = -0.5839)

Quantile Statistics

Minimum 1953
5-th Percentile 1975
Q1 1983.5
Median 1990
Q3 1997
95-th Percentile 2002
Maximum 2009
Range 56
IQR 13.5

Descriptive Statistics

Mean 1989.4645
Standard Deviation 9.0586
Variance 82.0587
Sum 1.4861e+06
Skewness -0.5839
Kurtosis 0.6475
Coefficient of Variation 0.004553
  • byear is not normally distributed (p-value 0.003380083929539393)
  • byear has 9 outliers

occupation

categorical

Approximate Distinct Count 679
Approximate Unique (%) 71.9%
Missing 643
Missing (%) 40.5%
Memory Size 141134
  • The largest value (Авито) is over 1.92 times larger than the second largest value (МГУ)

Length

Mean 16.8877
Standard Deviation 13.0519
Median 14
Minimum 1
Maximum 76

Sample

1st row VK Team
2nd row Skyeng
3rd row СПбГУАП
4th row Microsoft
5th row СПбГЭТУ (ЛЭТИ)

Letter

Count 1526
Lowercase Letter 1129
Space Separator 1640
Uppercase Letter 397
Dash Punctuation 71
Decimal Number 51
  • occupation contains many words: 1235 words

occupation_type

categorical

Approximate Distinct Count 3
Approximate Unique (%) 0.3%
Missing 643
Missing (%) 40.5%
Memory Size 68506

Length

Mean 7.5699
Standard Deviation 2.9354
Median 10
Minimum 4
Maximum 10

Sample

1st row work
2nd row work
3rd row university
4th row work
5th row university

Letter

Count 7146
Lowercase Letter 7146
Space Separator 0
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0
  • The top 2 categories (university, work) take over 50.0%

relation

categorical

Approximate Distinct Count 9
Approximate Unique (%) 1.2%
Missing 823
Missing (%) 51.9%
Memory Size 105392
  • The largest value (не указано) is over 3.39 times larger than the second largest value (женат/замужем)

Length

Mean 12.0524
Standard Deviation 3.2798
Median 10
Minimum 10
Maximum 22

Sample

1st row не указано
2nd row женат/замужем
3rd row не указано
4th row женат/замужем
5th row не указано

Letter

Count 0
Lowercase Letter 0
Space Separator 715
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0

alcohol

categorical

Approximate Distinct Count 5
Approximate Unique (%) 5.0%
Missing 1486
Missing (%) 93.6%
Memory Size 6868

Length

Mean 3
Standard Deviation 0
Median 3
Minimum 3
Maximum 3

Sample

1st row 3.0
2nd row 1.0
3rd row 2.0
4th row 4.0
5th row 3.0

Letter

Count 0
Lowercase Letter 0
Space Separator 0
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 202
  • alcohol has words of constant length

inspired_by

categorical

Approximate Distinct Count 105
Approximate Unique (%) 97.2%
Missing 1479
Missing (%) 93.2%
Memory Size 18666

Length

Mean 23.4537
Standard Deviation 24.0181
Median 16
Minimum 3
Maximum 166

Sample

1st row Бог
2nd row исскуство, музыка
3rd row Пере осознание и с...
4th row Все, что заставляе...
5th row Природа, путешеств...

Letter

Count 197
Lowercase Letter 181
Space Separator 297
Uppercase Letter 16
Dash Punctuation 1
Decimal Number 0

langs

categorical

Approximate Distinct Count 52
Approximate Unique (%) 11.4%
Missing 1132
Missing (%) 71.3%
Memory Size 59761
  • The largest value (Русский) is over 5.37 times larger than the second largest value (Русский,English)

Length

Mean 11.1934
Standard Deviation 15.3472
Median 7
Minimum 2
Maximum 289

Sample

1st row Русский,English,De...
2nd row Русский,English
3rd row Русский
4th row Русский,Български,...
5th row Русский,한국어

Letter

Count 1328
Lowercase Letter 1138
Space Separator 21
Uppercase Letter 190
Dash Punctuation 0
Decimal Number 0
  • The largest value (русский) is over 5.37 times larger than the second largest value (русскийenglish)

life_main

categorical

Approximate Distinct Count 7
Approximate Unique (%) 4.3%
Missing 1425
Missing (%) 89.8%
Memory Size 23872

Length

Mean 14.3704
Standard Deviation 3.7679
Median 12
Minimum 12
Maximum 22

Sample

1st row саморазвитие
2nd row саморазвитие
3rd row саморазвитие
4th row саморазвитие
5th row развлечения и отды...

Letter

Count 0
Lowercase Letter 0
Space Separator 182
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0

people_main

categorical

Approximate Distinct Count 6
Approximate Unique (%) 3.5%
Missing 1416
Missing (%) 89.2%
Memory Size 27755
  • The largest value (доброта и честность) is over 3.03 times larger than the second largest value (ум и креативность)

Length

Mean 18.3275
Standard Deviation 0.932
Median 19
Minimum 17
Maximum 19

Sample

1st row юмор и жизнелюбие
2nd row ум и креативность
3rd row смелость и упорств...
4th row ум и креативность
5th row доброта и честност...

Letter

Count 0
Lowercase Letter 0
Space Separator 342
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0
  • The largest value (и) is over 1.82 times larger than the second largest value (доброта)

political

categorical

Approximate Distinct Count 9
Approximate Unique (%) 7.0%
Missing 1458
Missing (%) 91.9%
Memory Size 17831
  • The largest value (умеренные) is over 2.23 times larger than the second largest value (либеральные)

Length

Mean 11.8062
Standard Deviation 2.6724
Median 11
Minimum 9
Maximum 20

Sample

1st row индифферентные
2nd row либеральные
3rd row умеренные
4th row монархические
5th row умеренные

Letter

Count 0
Lowercase Letter 0
Space Separator 0
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0
  • The largest value (умеренные) is over 2.23 times larger than the second largest value (либеральные)

religion

categorical

Approximate Distinct Count 40
Approximate Unique (%) 43.0%
Missing 1494
Missing (%) 94.1%
Memory Size 12665
  • The largest value (Православие) is over 2.5 times larger than the second largest value (Светский гуманизм)

Length

Mean 11.6989
Standard Deviation 4.4375
Median 11
Minimum 1
Maximum 29

Sample

1st row Пастафарианство
2nd row умеренные
3rd row Улыбка
4th row агностик
5th row Буддизм

Letter

Count 23
Lowercase Letter 21
Space Separator 41
Uppercase Letter 2
Dash Punctuation 1
Decimal Number 1
  • The largest value (православие) is over 2.31 times larger than the second largest value (гуманизм)

smoking

categorical

Approximate Distinct Count 5
Approximate Unique (%) 3.0%
Missing 1423
Missing (%) 89.7%
Memory Size 11152

Length

Mean 3
Standard Deviation 0
Median 3
Minimum 3
Maximum 3

Sample

1st row 3.0
2nd row 1.0
3rd row 1.0
4th row 2.0
5th row 2.0

Letter

Count 0
Lowercase Letter 0
Space Separator 0
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 328
  • smoking has words of constant length

followers_count

numerical

Approximate Distinct Count 898
Approximate Unique (%) 57.5%
Missing 24
Missing (%) 1.5%
Infinite 0
Infinite (%) 0.0%
Memory Size 25008
Mean 748.3794
Minimum 0
Maximum 18839
Zeros 10
Zeros (%) 0.6%
Negatives 0
Negatives (%) 0.0%
  • followers_count is skewed right (γ1 = 5.454)

Quantile Statistics

Minimum 0
5-th Percentile 24
Q1 178
Median 361
Q3 741
95-th Percentile 2539.8
Maximum 18839
Range 18839
IQR 563

Descriptive Statistics

Mean 748.3794
Standard Deviation 1370.2684
Variance 1.8776e+06
Sum 1.1697e+06
Skewness 5.454
Kurtosis 41.9106
Coefficient of Variation 1.831
  • followers_count is not normally distributed (p-value 5.62727335356867e-21)
  • followers_count has 155 outliers

is_org

categorical

Approximate Distinct Count 1
Approximate Unique (%) 0.1%
Missing 0
Missing (%) 0.0%
Memory Size 111090

Length

Mean 5
Standard Deviation 0
Median 5
Minimum 5
Maximum 5

Sample

1st row False
2nd row False
3rd row False
4th row False
5th row False

Letter

Count 7935
Lowercase Letter 6348
Space Separator 0
Uppercase Letter 1587
Dash Punctuation 0
Decimal Number 0
  • is_org has words of constant length

first_name

categorical

Approximate Distinct Count 424
Approximate Unique (%) 26.7%
Missing 0
Missing (%) 0.0%
Memory Size 113006

Length

Mean 6.0491
Standard Deviation 1.8704
Median 6
Minimum 1
Maximum 28

Sample

1st row Ekaterina
2nd row Sasha
3rd row Vsevolod
4th row Vitold
5th row Mr

Letter

Count 9554
Lowercase Letter 7958
Space Separator 1
Uppercase Letter 1596
Dash Punctuation 7
Decimal Number 0

last_name

categorical

Approximate Distinct Count 1419
Approximate Unique (%) 89.4%
Missing 0
Missing (%) 0.0%
Memory Size 116122
  • The largest value (Ivanov) is over 1.57 times larger than the second largest value (Vasilyev)

Length

Mean 8.0693
Standard Deviation 2.2146
Median 8
Minimum 0
Maximum 25

Sample

1st row Lapanovich
2nd row Mitroshina
3rd row Ryzhov
4th row Sedyshev
5th row Snack

Letter

Count 12780
Lowercase Letter 11190
Space Separator 0
Uppercase Letter 1590
Dash Punctuation 8
Decimal Number 0
  • last_name contains many words: 1418 words
  • The largest value (ivanov) is over 1.57 times larger than the second largest value (vasilyev)

status

categorical

Approximate Distinct Count 656
Approximate Unique (%) 42.0%
Missing 26
Missing (%) 1.6%
Memory Size 237934
  • The largest value () is over 449.5 times larger than the second largest value ()))

Length

Mean 20.0577
Standard Deviation 33.8727
Median 0
Minimum 0
Maximum 140

Sample

1st row
2nd row Кто здесь смеется ...
3rd row
4th row Дети — это завтраш...
5th row В море.

Letter

Count 3174
Lowercase Letter 2847
Space Separator 4325
Uppercase Letter 327
Dash Punctuation 124
Decimal Number 468
  • The top 2 categories (, ))) take over 50.0%
  • status contains many words: 2587 words

main_group_likes

numerical

Approximate Distinct Count 12
Approximate Unique (%) 0.8%
Missing 0
Missing (%) 0.0%
Infinite 0
Infinite (%) 0.0%
Memory Size 25392
Mean 0.1103
Minimum 0
Maximum 32
Zeros 1551
Zeros (%) 97.7%
Negatives 0
Negatives (%) 0.0%
  • main_group_likes is skewed right (γ1 = 18.7436)

Quantile Statistics

Minimum 0
5-th Percentile 0
Q1 0
Median 0
Q3 0
95-th Percentile 0
Maximum 32
Range 32
IQR 0

Descriptive Statistics

Mean 0.1103
Standard Deviation 1.378
Variance 1.8989
Sum 175
Skewness 18.7436
Kurtosis 385.1967
Coefficient of Variation 12.4966
  • main_group_likes is not normally distributed (p-value 4.26077908381533e-25)
  • main_group_likes has 36 outliers

got_likes_from_members

numerical

Approximate Distinct Count 26
Approximate Unique (%) 1.6%
Missing 0
Missing (%) 0.0%
Infinite 0
Infinite (%) 0.0%
Memory Size 25392
Mean 1.4663
Minimum 0
Maximum 40
Zeros 1172
Zeros (%) 73.9%
Negatives 0
Negatives (%) 0.0%
  • got_likes_from_members is skewed right (γ1 = 3.7969)

Quantile Statistics

Minimum 0
5-th Percentile 0
Q1 0
Median 0
Q3 1
95-th Percentile 10
Maximum 40
Range 40
IQR 1

Descriptive Statistics

Mean 1.4663
Standard Deviation 3.9833
Variance 15.8669
Sum 2327
Skewness 3.7969
Kurtosis 16.8336
Coefficient of Variation 2.7166
  • got_likes_from_members is not normally distributed (p-value 9.891684382863131e-25)
  • got_likes_from_members has 216 outliers

got_likes

numerical

Approximate Distinct Count 323
Approximate Unique (%) 20.3%
Missing 0
Missing (%) 0.0%
Infinite 0
Infinite (%) 0.0%
Memory Size 25392
Mean 81.2621
Minimum 0
Maximum 3482
Zeros 548
Zeros (%) 34.5%
Negatives 0
Negatives (%) 0.0%
  • got_likes is skewed right (γ1 = 6.4907)

Quantile Statistics

Minimum 0
5-th Percentile 0
Q1 0
Median 9
Q3 72.5
95-th Percentile 410
Maximum 3482
Range 3482
IQR 72.5

Descriptive Statistics

Mean 81.2621
Standard Deviation 194.5914
Variance 37865.8014
Sum 128963
Skewness 6.4907
Kurtosis 75.1969
Coefficient of Variation 2.3946
  • got_likes is not normally distributed (p-value 1.3065029266978617e-24)
  • got_likes has 209 outliers

Interactions

Correlations

Missing Values

Report generated with DataPrep

Топ групп¶

Группы, на которые подписаны наибольшее количество пользователей

кол-во подписанных участников
Название группы
Avito Life 1550
Журнал «Код» 382
Академия Яндекса 356
ВКонтакте для бизнеса 320
Яндекс Практикум 315
Библиотека программиста 306
Ozon Tech 297
ВКонтакте 295
Тинькофф Образование 293
Психология 279
Kaspersky Team 277
Figma 275
Книги 269
Наука и Техника 264
Типичный программист 260
Selectel 258
ВКонтакте с авторами 257
Skillbox: образовательная платформа 254
Стартапы и бизнес 246
Тинькофф 230
Хекслет 228
Ozon Team 226
Словарный запас 211
AvitoTech 211
Сарказм 206
VK Team 206
Vandrouki | Путешествия почти бесплатно (RU) 205
IT's Tinkoff 205
ITc | сообщество программистов 202
MDK 201

Выделение популярных участников¶

Выведем список самых популярных людей внутри сообщества на основе eigenvector_centrality:

first_name occupation followers_count
0 N. Авито 976.0
1 Y. Авито 2209.0
2 A. Авито 612.0
3 A. Авито 2304.0
4 A. Авито 1147.0
5 M. NaN 1123.0
6 A. Александр Горбачёв | Я - Авитолог 421.0
7 A. Авито 547.0
8 A. ТГУ 115.0
9 L. ЛГУ им. А. С. Пушкина 759.0
10 M. Авито 658.0
11 A. Авито 436.0
12 D. ПГТУ 1028.0
13 A. Дневник.ру 89.0
14 V. Авито 331.0
15 S. СПбГЭУ (ПФ, бывш. ФИНЭК, ИНЖЭКОН, СПбГУСЭ) 563.0
16 N. ✦FRESH - ДЕЛОВЫЕ ЗНАКОМСТВА 1361.0
17 M. АВИТОлог. Настройка и ведение аккаунтов на htt... 433.0
18 K. БГТУ (бывш. БТИ им. Кирова) 294.0
19 O. МГТУ им. Н. Э. Баумана 421.0
20 I. Авито 581.0
21 S. https//etgo.ru 362.0
22 O. VK Education 2307.0
23 R. VK Testers 348.0
24 S. Juice Development 506.0
25 O. ВКонтакте 2165.0
26 A. БГТУ (Военмех) 2084.0
27 R. ДелайПром 3156.0
28 E. VK Team 18839.0
29 K. КФУ (бывш. КГУ им. Ульянова-Ленина) 1034.0

Выделение подгрупп¶

Каждую компоненту связности будем считать отдельной подгруппой. (Если бы у нас был более связный граф, тогда бы использовали алгоритмы детекции сообществ на графе.)

Плотность графа - количество связей/ количество связей если все со всеми дружат.
Например, если все дружат со всеми, то плотность=1, если никто ни с кем не дружит, плотность=0

Выведем список самых больших подгрупп:

sett размер медианное кол-во друзей плотность
0 {7041285, 10892937, 24265613, 5922446, 1975042... 22 2.0 0.125541
1 {976134, 291621255, 148405273, 625608093, 4944... 20 1.5 0.110526
2 {16061313, 163240842, 13837324, 48213905, 3198... 19 2.0 0.116959
3 {8682528, 30404577, 323399717, 515520070, 1197... 9 2.0 0.277778
4 {38347652, 404066023, 11993288, 194505616, 108... 6 1.0 0.333333
5 {155739744, 172568998, 360258728, 309192077, 1... 6 1.0 0.333333
6 {657860742, 21035721, 2657200, 27398038, 52144... 5 2.0 0.500000
7 {4116428, 428459437, 587482960, 75135509, 2669... 5 2.0 0.500000
8 {472496955, 1153475, 346599278, 1010983} 4 0.5 0.333333
9 {2168792, 95486563, 41859597, 90646183} 4 1.5 0.500000
10 {419876057, 338489154, 251286931, 38448980} 4 1.5 0.500000
11 {241572616, 137216611, 152484318, 190658135} 4 1.0 0.500000

Так выглядят свзи самой большой погруппы размером 22:

Распределение признаков¶

Сравним 3 самых больших подгруппы

DataPrep.EDA Report
Difference Overview
0_subgroup 1_subgroup 2_subgroup
Number of Variables 23 23 23
Number of Rows 22 20 19
Missing Cells 186 139 160
Missing Cells (%) 36.8% 30.2% 36.6%
Duplicate Rows 0 0 0
Duplicate Rows (%) 0.0% 0.0% 0.0%
Total Size in Memory 4.5 KB 4.2 KB 4.0 KB
Average Row Size in Memory 4.5 KB 4.1 KB 4.0 KB
Variable Types
  • Categorical: 20
  • Numerical: 3
  • Categorical: 21
  • Numerical: 2
  • Categorical: 21
  • Numerical: 2
0_subgroup
1_subgroup
2_subgroup

Number of plots per page:

city
sex
byear
occupation
occupation_type
relation
alcohol
inspired_by
langs
life_main
people_main
political
religion
smoking
followers_count
is_org
first_name
last_name
status
main_group_likes
got_likes_from_members
got_likes
subgroup
  • Судя по всему 0 подгруппе как минимум половина -- работники Авито. Это и указано в роде деятельности и лайков от них больше в группе.
  • В отсальном подгруппы маленькие, сказать особо нечего.

Топ подгрупп¶

Теперь посмотрим топ подписок в разных подгруппах

Общих групп: 2 
Общие группы: {'Vandrouki | Путешествия почти бесплатно (RU)', 'Avito Life'}
0 1 2
Топ групп\Номер подгруппы
0 Ищу модель Питер VK Team Агентство стратегических инициатив
1 Сарказм Академия Яндекса Росмолодёжь
2 Интересные события в Санкт-Петербурге ВКонтакте с авторами Академия Яндекса
3 Psychology|Психология Тинькофф Тинькофф Образование
4 Интересные Факты Ozon Team careerspace
5 Киномания - Лучшие фильмы Стартапы и бизнес Россия — страна возможностей
6 AvitoTech Figma HR
7 Шедевры рекламы ВКонтакте Ozon Camp
8 Фильмы VK NFT HUB Карьера в Danone
9 Психология Яндекс Карьера в Сбере
10 MARVEL/DC IT's Tinkoff MS Excel Tips&Tricks
11 Дзен Тинькофф Образование icanchoose
12 Duran Карьера в Сбере Банк России
13 MDK VK Store FU Case Club
14 Психология отношений ВКонтакте для бизнеса РБК
15 Сбер Карьера в МТС Финтех Карьера в МТС Финтех
16 Яндекс VK Праздники Ozon Team
17 Отдам даром СПБ • Санкт-Петербург • Питер Библиотека программиста Ozon Tech
18 Бизнес цитатник | психология и саморазвитие AvitoTech Бизнес-инкубатор ВШЭ
19 Подслушано – Здесь говорят о тебе Ozon Tech Гранты,стипендии,стажировки! Обучение за рубежом
20 Just English VK Mini Apps ВКонтакте
21 Уютное гнездышко / поиск жилья и соседей / СПБ Пикабу Экспертосфера
22 Фитнес кухня Церебро Таргет | продвижение и реклама бизнеса Высшая школа экономики
23 Бесплатный Питер VK Lab VK Team
24 Лайфхакерша VK Дом Яндекс Практикум
25 Киномания ► Новинки кино VK Pay Forbes
26 129591667 VK Designers Фонд «Сколково»
27 Фильмы, основанные на реальных событиях Kaspersky Team Коммерсантъ
28 Это Питер, детка! [Типичный Питер] VK Музыка Буду
29 ПСБ VK Tech Неизвестная Россия
30 Smart Money | Бизнес журнал deep vk Олимпиада студентов «Я — профессионал»
31 Хакаматон | Онлайн-программы Ирины Хакамада Журнал «Код» Young&&Yandex
32 Стартапы и бизнес Авито Работа The Experts: School of Finance
33 ПроСТО Кухня | ПРО100 Кухня | БЕЛЬКОВИЧ фан-клуб VK Университет «Сириус» / Sirius University
34 Эскизы татуировок Минцифры России ДРТ | Деловые Решения и Технологии
35 Science|Наука Буду MTS AI
36 Mash | Мэш на Мойке Маруся & VK Капсула Минцифры России
37 Идеи дизайна интерьера Русский маркетинг Figma
38 Wow Реклама | Маркетинг Агентство стратегических инициатив Andy: стажировки для тебя
39 Церебро Таргет | продвижение и реклама бизнеса hh.ru: работа есть всегда hh.ru: работа есть всегда
40 Книги Типичный программист VK Education
41 VK Квиз Сколтех хайер скул оф мемс
42 Дом & Еда Команда Поддержки ВКонтакте E.squire
43 КиноКайф - Лучшие фильмы VK Cup AIESEC в России
44 Всегда говори Да | Мотивация и вдохновение Немецкий язык Экономика, которую мы заслужили
45 Словарный запас Нетология. Меняем карьеру через образование Конференция «Менеджмент Будущего»
46 5 интересных фактов N + 1 Сколтех
47 Телеканал ТНТ Туры по цене перелета от Vandrouki Совет Федерации

Сравним отдельно 1 и 2 подгруппы.

Общих групп: 16 
Общие группы: {'ВКонтакте', 'Академия Яндекса', 'Минцифры России', 'Avito Life', 'Буду', 'Тинькофф Образование', 'Карьера в Сбере', 'VK Team', 'Агентство стратегических инициатив', 'Vandrouki | Путешествия почти бесплатно (RU)', 'Ozon Tech', 'Figma', 'Ozon Team', 'Карьера в МТС Финтех', 'hh.ru: работа есть всегда', 'Сколтех'}
1 2
Топ групп\Номер подгруппы
0 ВКонтакте с авторами Росмолодёжь
1 Тинькофф careerspace
2 Стартапы и бизнес Россия — страна возможностей
3 VK NFT HUB HR
4 Яндекс Ozon Camp
5 IT's Tinkoff Карьера в Danone
6 VK Store MS Excel Tips&Tricks
7 ВКонтакте для бизнеса icanchoose
8 VK Праздники Банк России
9 Библиотека программиста FU Case Club
10 AvitoTech РБК
11 VK Mini Apps Бизнес-инкубатор ВШЭ
12 Пикабу Гранты,стипендии,стажировки! Обучение за рубежом
13 Церебро Таргет | продвижение и реклама бизнеса Экспертосфера
14 VK Lab Высшая школа экономики
15 VK Дом Яндекс Практикум
16 VK Pay Forbes
17 VK Designers Фонд «Сколково»
18 Kaspersky Team Коммерсантъ
19 VK Музыка Неизвестная Россия
20 VK Tech Олимпиада студентов «Я — профессионал»
21 deep vk Young&&Yandex
22 Журнал «Код» The Experts: School of Finance
23 Авито Работа Университет «Сириус» / Sirius University
24 VK ДРТ | Деловые Решения и Технологии
25 Маруся & VK Капсула MTS AI
26 Русский маркетинг Andy: стажировки для тебя
27 Типичный программист VK Education
28 Команда Поддержки ВКонтакте хайер скул оф мемс
29 VK Cup E.squire
30 Немецкий язык AIESEC в России
31 Нетология. Меняем карьеру через образование Экономика, которую мы заслужили
32 N + 1 Конференция «Менеджмент Будущего»
33 Туры по цене перелета от Vandrouki Совет Федерации
Плотность графа: 0.12554112554112554

Плотность графа близка к единице. Кажется - это очень дружная и обособленная компания, либо боты.

Давайте посмотрим на какие группы они подписаны:

Послесловие¶

Скрипт сбора данных -¶

С помощью данного скрипта можно спарсить сообщество в 25к примерно за неделю, 20к будут с открытыми профилями. Для работы скрипта нужно ссылка на группу вк. Скрипт соберет информацию об участниках. Это может быть и сообщество, и мероприятие.
Какие данные мы получаем:

  • основную информацию об участниках сообщества: пол, имя, город, дата рождения, университет, место работы и т.д. (здесь много пропусков, т.к. не все указывают все, но например город есть почти у всех)
  • кто с кем дружит, кто на кого подписан
  • подписки участников на группы, общую информацию о топ-n группах(тематика, название...)
  • последние 100 постов участников, лайки на них
  • последние 100 постов сообщества вк, лайки к ним

Что можно сделать еще¶

  • разбить тексты постов людей на кластеры и посмотреть самы популярные, самые популярные внутри сообщества(инструменты: carrot2, rubert + sklearn)
  • найти тональность постов(положительная, нейтральная, негативная), посмотреть аггрегированную тональность кластеров текстов, сравнить все это между несколькими подгруппами людей
  • выбрать другой алгоритм разбиения участников на подгруппы, который сможет учитвать не только связи между участниками, но и другими характеристиками(node2vec + sklearn), или просто другой алгоритм(в посте испольлзуется louvain, можно применить Leiden, Walktrap и еще десятки из библиотеки cdlib)
  • сделать предсказание ребер на основе общих друзей например, 2 учаснтика сообщества не дружат между собой, но у них 30 общих друзей, можно посчитать вероятность того, что они дружат и положить это значение в вес ребра
  • сделать граф, основанный на лайках, а не дружбе. Может даже совместить, еще и вк группы засунуть, но интерпретировать будет сложнее.
  • собрать информацию о группах не по подпискам а по лайкам, но это займет времени в десятки раз больше, вероятно